强化学习 MOC
创建于 2026-05-09
目录
强化学习 MOC
Abstract
这是整个强化学习笔记库的导航页(Map of Content)。建议把它作为 Obsidian 主页或常驻收藏页使用。1. 学习主线
强化学习的主线可以压缩成一句话:
智能体在环境中连续做决策,通过奖励信号学习一个能够最大化长期期望回报的策略。
围绕这句话,当前笔记库按以下顺序展开:
- 01-强化学习总览与学习路径
- 02-第1课 强化学习在解决什么问题
- 03-第2课 马尔可夫决策过程 MDP
- 04-第3课 回报 价值函数与Q函数
- 05-第4课 Bellman方程
- 06-第5课 动态规划 策略评估 策略迭代 价值迭代
2. 支撑型笔记
这些笔记不是主线课程,但用来解决学习中最容易卡住的地方:
3. 课程之间的依赖关系
强化学习基本思想
↓
MDP(问题建模)
↓
回报 / V / Q(长期价值评估)
↓
Bellman 方程(递推核心)
↓
动态规划(已知模型时求解最优策略)
你也可以理解成三层结构:
4. 当前应先吃透的关键词
- 03-第2课 马尔可夫决策过程 MDP#1. MDP 的五元组
- 04-第3课 回报 价值函数与Q函数#1. 回报 Return
- 04-第3课 回报 价值函数与Q函数#2. 状态价值函数 V^π(s)
- 04-第3课 回报 价值函数与Q函数#3. 动作价值函数 Q^π(s,a)
- 05-第4课 Bellman方程#2. 回报的递推形式
- 06-第5课 动态规划 策略评估 策略迭代 价值迭代#1. 动态规划在 RL 中是什么
5. 建议的复习路径
第一轮:建立整体直觉
按顺序看: - 02-第1课 强化学习在解决什么问题 - 03-第2课 马尔可夫决策过程 MDP - 04-第3课 回报 价值函数与Q函数
第二轮:抓住 RL 的数学主线
按顺序看: - 04-第3课 回报 价值函数与Q函数 - 05-第4课 Bellman方程 - 06-第5课 动态规划 策略评估 策略迭代 价值迭代
第三轮:专门扫清符号和公式障碍
6. 我当前对 RL 的一句话笔记
Summary
强化学习的核心不在于“背算法”,而在于先建立一种新的看问题方式: **状态是什么,动作是什么,奖励是什么,长期价值如何递推,策略如何据此改进。**7. 后续可继续扩展的主题
当前这套笔记是前 5 课的基础版,后续最自然的扩展顺序是:
- Monte Carlo
- Temporal Difference
- SARSA
- Q-learning
- DQN
- Policy Gradient
- Actor-Critic
- PPO
你后面继续学时,建议保持同样的命名方式往下接:
- 09 第6课 ...
- 10 第7课 ...